1 Introduction

Chacun des molécules biologiques ADN, ARN et protéines interviennent dans la transmission de l’information génétique et sont indispensable à tout être vivant. La modélisation structurelle de l’ADN, de l’ARN et des protéines nous permet de comprendre leur fonction, ce qui a des implications dans de nombreux domaines, tels que l’agriculture et la médecine. (1)

La réussite de la modélisation structurelle informatique dépend sur des données nombreuses et équilibrées, ainsi que sur des annotations de qualité. Bien que des progrès significatifs aient été réalisés dans la prédiction de la structure de l’ADN et des protéines, la modélisation de l’ARN demeure plus compliquée en raison du nombre limité de données disponibles et de ses propriétés structurelles, telles que ses motifs. (2)

Nous présenterons les raisons pour lesquelles la complexité de la structure de l’ARN rend sa prédiction difficile, ainsi que les différents outils existants pour l’identifier et la prédire.

2 ADN et protéines

Les structures d’ADN et de protéines sont généralement plus faciles à prédire que celles de l’ARN puisqu’elles présentent des structures beaucoup plus consistantes et rigides. En effet, l’ADN présente une structure uniforme de double hélice très prévisible qui consistent d’une série répétitive de paires de bases nucléotidiques suivant des règles d’appariement Watson-Crick (A-T, C-G). Elle suit des règles de géométrie simples qui rendent sa structure stable à l’aide d’interactions hydrophobes et de Van der Waals. De ce fait, la stabilité de la structure de l’ADN permet la conservation de l’information génétique. Ses propriétés de superposition, donc l’empilement des bases azotées les unes sur les autres au centre de la double hélice (Figure 2.1 (gauche)), facilitent grandement la modélisation. (3)

(gauche) Géométrie de l'ADN [@DNAGeometry]; (droit) Géométrie de l'ARN [@RNAGeometry](gauche) Géométrie de l'ADN [@DNAGeometry]; (droit) Géométrie de l'ARN [@RNAGeometry]

Figure 2.1: (gauche) Géométrie de l’ADN (4); (droit) Géométrie de l’ARN (5)

Les structures de protéines, quant à eux, bénéficient d’un large éventail de données disponibles. La Protein Data Bank (PDB) contient plus de 200 000 structures de protéines annotées, alors qu’il en existe seulement 10 000 pour les structures de l’ARN. Le repliement des protéines est plus prévisible que celui de l’ARN, se basant sur la séquence primaire de la chaîne d’acides aminés. De plus, les protéines contiennent de l’information évolutif, aidant fortement les algorithmes de prédiction à inférer les séquences d’acides aminés en utilisant des alignements de séquences multiples. (6) Les ARNs sont moins annotés que les protéines, surtout puisqu’il est chimiquement plus difficile d’entreprendre des expériences de cristallographie pour définir leurs structures. (2)

3 Structure d’ARN

La modélisation de l’ARN est difficile, notamment à cause de sa structure. Elle présente une seule chaîne de nucléotides, donc nous perdons les propriétés de superposition (Figure 2.1 (droite)) offertes par l’ADN (plus possible d’avoir une structure constante de double hélice parfaite). Cette chaîne de nucléotides permet aux interactions d’appariement de bases de se produire entre les nucléotides d’un même brin. Les motifs structurels, comme les hélices et les boucles, sont des éléments de structure secondaire assemblés à partir de paires de bases Watson-Crick (A-U et C-G) (Figure 3.1 (gauche)) et de paires de bases wobble (G-U). (7)

(gauche) Paires de bases Watson-Crick d'ARN [@RNACanonical]; (droit) Example d'une paire de base non-Watson-Crick, W-C/Hoogsteen  [@RNANonCanonical](gauche) Paires de bases Watson-Crick d'ARN [@RNACanonical]; (droit) Example d'une paire de base non-Watson-Crick, W-C/Hoogsteen  [@RNANonCanonical]

Figure 3.1: (gauche) Paires de bases Watson-Crick d’ARN (8); (droit) Example d’une paire de base non-Watson-Crick, W-C/Hoogsteen (9)

Bien que l’appariement des bases soit souvent considéré en termes de paires Watson-Crick, d’autres appariements sont également possibles. (10) Les paires de bases non-Watson-Crick impliquent différentes interactions nucléotidiques de l’appariement Watson-Crick. Les éléments structuraux secondaires s’assemblent principalement à l’aide de paires de bases non-Watson-Crick (Figure 3.1 (droite)) pour former des structures tertiaires, tels que des kink-turns ou A-mineurs.

Ces structures, appelées modules d’ARN, sont caractérisées par des ensembles de paires de bases non-Watson-Crick orientées et ordonnées. Les paires de bases non-Watson-Crick jouent un rôle important dans la stabilisation de la structure tertiaire de l’ARN. Les modules ont aussi d’autres rôles fonctionnels importants dans les molécules d’ARN, comme servir de sites de liaison aux protéines et à l’ARN. (11)

Les modules apparaissent de façon récurrente dans différents ARN. On suppose que le même module présent dans différentes structures d’ARN a une importance fonctionnelle. (12) Par example, Il y a 83 957 (trouvé sur CaRNAval (Figure 3.3)) occurrences du module représenté dans la Figure 3.2 (gauche), comme par exemple dans le ribosome 1VQM (Figure 3.2 (droite)).

(gauche) Le module d'ARN, RIN-2 [@RIN-17]; (droite) Le ribosome 1VQM tirée du PDB [@1VQM](gauche) Le module d'ARN, RIN-2 [@RIN-17]; (droite) Le ribosome 1VQM tirée du PDB [@1VQM]

Figure 3.2: (gauche) Le module d’ARN, RIN-2 (13); (droite) Le ribosome 1VQM tirée du PDB (14)

Les occurrences du RIN-2 (A-Minor Type I) [@RIN-17]

Figure 3.3: Les occurrences du RIN-2 (A-Minor Type I) (13)

L’ARN peut également interagir entre lui (ARN-ARN) ou avec d’autres molécules (ARN-ADN, ARN-protéines), formant des structures quaternaires, comme les ribosomes ou les spliceosomes. (7)

  • add why these characteristics/properties make RNA hard to model/predict

4 Représentations des structures de l’ARN

Une façon de modéliser la structure secondaire de l’ARN est d’utiliser la notation Dot-Bracket du package ViennaRNA. Dans cette notation, les nucléotides appariés sont représentés par des brackets () - ou «parenthèses» - et non appariés par des dots . - ou «points». Par example, la notation Dot-Bracket du modèle d’ARN, 3E5C, ressemble à ceci :

GUUCCCGAAAGGAUGGCGGAAACGCCAGAUGCCUUGUAACCGAAAGGGGGAAU 
((((((..((((.(((((....)))))....))))....((....))))))))

The image on the right of Figure 4.1 represents the drawn secondary structure. We used ViennaRNA Web Services to visualize the structure. The parentheses represent paired bases (green) and the dots represent unpaired regions such as multiloops (red), interior Loops (yellow) and hairpin loops (blue.)

(gauche) La structure secondarie de l'ARN 3E5C dessinée en utilisant [ViennaRNA Web Services](http://rna.tbi.univie.ac.at/forna/); (droit) La structure tertiare de l'ARN 3E5C tirée du PDB [@3E5C](gauche) La structure secondarie de l'ARN 3E5C dessinée en utilisant [ViennaRNA Web Services](http://rna.tbi.univie.ac.at/forna/); (droit) La structure tertiare de l'ARN 3E5C tirée du PDB [@3E5C]

Figure 4.1: (gauche) La structure secondarie de l’ARN 3E5C dessinée en utilisant ViennaRNA Web Services; (droit) La structure tertiare de l’ARN 3E5C tirée du PDB (15)

Cependant, l’ARN ?goes beyond? sa structure secondaire. L’ARN est capable de former des structures tertiaires impliquant des paires de bases non-Watson-Crick, as shown by the green dots in Figure 4.1 (droit). Ces structures tertiaires peuvent être représentées sous forme de graphes.

Le modèle Leontis-Westhof classe les configurations géométriques des paires de bases en 12 classes selon les arêtes impliquées. (16)

  • In Figure 4.2, if we take nodes 4 and 6 for example, we can see that the edge that is formed is tSS. resulting in labeled graphs that encode both the presence and the geometric nature of interactions.
RIN-17 tirée du CaRNAval [@RIN-17]

Figure 4.2: RIN-17 tirée du CaRNAval (13)

  • explain the relevance to CaRNAval and RNA 3D Motif Atlas

5 Approches informatiques de la représentation d’ARN

5.1 CaRNAval

CaRNAval utilise une méthodologie basée sur les graphes pour extraire tous les Réseaux Récurrents d’Interaction (RINs) de la PDB. Il cherche tous les patrons des paires de bases et trouve les modifications et réseaux associés.

5.2 RNA 3D Motif Atlas

RNA Motif Atlas

5.3 BayesPairing2

BayesPairing2

6 Conclusion et perspectives

Références

1.
Committee on Research Opportunities in Biology. NRC (US). Molecular structure and function. National Academies Press (US) [Internet]. 1989; Available from: https://www.ncbi.nlm.nih.gov/books/NBK217812/
2.
Kwon D. RNA function follows form – why is it so hard to predict? Nature [Internet]. 2025; Available from: doi: https://doi.org/10.1038/d41586-025-00920-8
3.
Zi-Chun Mu JL Ya-Lan Tan. Computational modeling of DNA 3D structures: From dynamics and mechanics to folding. Molecules (Basel, Switzerland), 28(12), 4833 [Internet]. 2020; Available from: doi: https://doi.org/10.3390/molecules28124833
4.
5.
6.
Mirko Torrisi QL Gianluca Pollastri. Deep learning methods in protein structure prediction. Computational and structural biotechnology journal, 18, 1301–1310 [Internet]. 2020; Available from: doi: https://doi.org/10.1016/j.csbj.2019.12.011
7.
Jinsong Zhang LS Yuhan Fei. Advances and opportunities in RNA structure experimental determination and computational modeling. Nature Methods [Internet]. 2022; Available from: https://doi.org/10.1038/s41592-022-01623-y
8.
9.
10.
Neocles B Leontis EW Aurelie Lescoute. The building blocks and motifs of RNA architecture. Current Opinion in Structural Biology [Internet]. 2006; Available from: https://doi.org/10.1016/j.sbi.2006.05.009
11.
José Almeida Cruz EW. Sequence-based identification of 3D structural modules in RNA with RMDetect. Nature Methods [Internet]. 2011; Available from: https://doi.org/10.1038/nmeth.1603
12.
Vladimir Reinharz EW Antoine Soulé. Mining for recurrent long-range interactions in RNA structures reveals embedded hierarchies in network families. National Library of Medicine [Internet]. 2018; Available from: doi: 10.1093/nar/gky197. PMID: 29608773; PMCID: PMC5934684.
13.
RIN - 17 [Internet]. Available from: https://carnaval.cbe.uqam.ca/rin/17/
14.
The structure of the transition state analogue "DAN" bound to the large ribosomal subunit of haloarcula marismortui [Internet]. Available from: https://doi.org/10.2210/pdb1VQM/pdb
15.
Crystal structure of the SMK box (SAM-III) riboswitch with SAM [Internet]. Available from: https://doi.org/10.2210/pdb3E5C/pdb
16.
Neocles B Leontis EW. Geometric nomenclature and classification of RNA base pairs. Cambridge University Press [Internet]. 2001; Available from: doi:10.1017/S1355838201002515
17.
Roman Sarrazin-Gendron VR Hua-Ting Yao. Stochastic sampling of structural contexts improves the scalability and accuracy of RNA 3D module identification. bioRxiv 834762 [Internet]. 2020; Available from: https://doi.org/10.1101/834762
18.
Jakub Wiedemann MM Jacek Kaczor. RNAloops: A database of RNA multiloops. Bioinformatics (Oxford, England), 38(17), 4200–4205 [Internet]. 2022; Available from: https://doi.org/10.1093/bioinformatics/btac484
19.
Md Mahfuzur Rahaman SZ. RNAMotifProfile: A graph-based approach to build RNA structural motif profiles. NAR Genomics and Bioinformatics, Volume 6, Issue 3 [Internet]. 2024; Available from: https://doi.org/10.1093/nargab/lqae128
20.
Gabriel Loyer VR. Concurrent prediction of RNA secondary structures with pseudoknots and local 3D motifs in an integer programming framework. Bioinformatics (Oxford, England), 40(2), btae022 [Internet]. 2024; Available from: https://doi.org/10.1093/bioinformatics/btae022
21.
Antoine Soulé RSG Vladimir Reinharz. Finding recurrent RNA structural networks with fast maximal common subgraphs of edge-colored graphs. PLoS Comput Biol 17(5): e1008990 [Internet]. 2021; Available from: https://doi.org/10.1371/journal.pcbi.1008990
22.
RIN - 2 [Internet]. Available from: https://carnaval.cbe.uqam.ca/rin/2/